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摘 要 : 随 着 视频 分 享 应 用 和 平台 的 血 勃 发 展 ， 视 频数 据 正 处 于 指数 上 升 阶段 ， 针 对 目前 相似 性 视频 检索 方法 中 快 
速 性 和 准确 性 仍 无 法 满足 用 户 要 求 等 问题 , 提出 了 一 种 基于 3D 卷 积 神经 网 络 的 视频 快速 检索 方法 。 该 算法 将 3D 卷 
积 神经 网 络 与 哈 希 学 习 方 法 结合 应 用 于 视频 数据 , 既 能 快速 学 习 视频 时 空 特征 表示 , 又 能 极 大 地 缩短 视频 检索 时 间 。 
在 常用 视频 数据 集 上 的 实验 结果 表明 ， 利 用 所 提出 的 方法 对 视频 进行 相似 性 检索 性 能 优 于 当前 主流 方法 。 

关键 词 : 深度 学 习 ; 哈 希 算法 ; 视频 检索 
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Video hash algorithm based on 3D convolutional neural network 


Liu Yuying!, Liu Hongzhe!'*, Yuan Jiazheng?, Li Bing? 
(1. Beijing Key Laboratory of Information Service Engineering Beijing, Beijing Union University, Beijing 100101, China; 2. 
Beijing Open University, Beijing 100081, China; 3. State Key Laboratory of Pattern Recognition, Institute of Automation, 
Chinese Academy of Science Beijing 100190, China) 


Abstract: With the vigorous development of video sharing applications and platforms, video data is in an exponentially 
rising phase. In order to solve this thorny problem that the speed and accuracy of the current similarity video retrieval 
methods still cannot meet the requirements of users, this paper proposes a new similarity video quick retrieval method, 
which combines the three-dimensional convolutional neural network with the hash learning method and apply to video data. 
It not only can quickly learn the video spatiotemporal feature representation but also can greatly shorten the video retrieval 
time. The experimental results on the set show that the similarity retrieval performance of the video using the proposed 
method is superior to the current mainstream methods. 


Key words: deep learning; hashing method; video retrieval 


引言 通过 计算 查询 视频 与 数据 库 视 频 二 值 码 之 间 的 汉 明 距离 来 进 
= 了 相似 度 检 索 ， 能 够 显著 降低 计算 开销 并 且 提 升 检 索性 能 。 
近年 来 ， 随 着 移动 互联 网 技术 的 快速 发 展 ， 图 像 、 视 频 。 近 几 年 ， 在 许多 关于 计算 机 视觉 的 课题 研究 上 运用 深度 学 习 
等 多 媒体 数据 呈 爆 炸 式 增长 。 对 于 互联 网 用 户 来 说 ， 从 海量 ”技术 都 显著 提升 了 性 能 ， 如 目标 检测 、 分 类 、 分 割 等 ， 这 些 
的 视频 数据 中 快速 的 检索 到 对 自己 有 用 或 者 喜欢 的 视频 非常 ”任务 性 能 的 提升 都 归功 于 深度 卷 积 神经 网 络 在 特征 表示 学 习 
重要 ， 对 互联 网 平台 来 说 ， 为 用 户 进行 个 性 化 的 视频 推荐 或 上 的 强大 ， 但 这 些 任务 主要 是 针对 图 像 作为 输入 进行 的 ， 攻 
相关 视频 广告 的 投放 能 够 有 效 地 提高 用 户 体验 以 及 产品 的 。 此 2D 卷 积 外 能 很 好 地 对 图 像 进 行 特 征 表示 学 习 。 而 在 视频 
; 对 视频 原创 者 来 说 , 能 够 充分 对 其 视频 进行 版 权 保 护 。 ”作为 输入 的 视觉 任务 中 ,2D 卷 积 不 能 及 时 捕获 视频 数据 的 时 
此 ,对 相似 视频 检索 技术 的 研究 成 为 基于 内 容 的 视频 检索 、 ” 序 信息 , 因此 针对 视频 时 序 信息 的 表示 , 研究 者 们 提出 了 3D 
频 个 性 化 推荐 和 原创 视频 版 权 保 护 等 应 用 的 关键 点 。 相 似 。” 卷 积 u0 来 同时 提取 视频 数据 的 时 间 特 征 和 空间 特征 ， 从 而 保 
频 检索 的 基本 思想 是 将 查询 视频 与 视频 数据 库 中 的 视频 进 ”证 视频 特征 表示 的 连续 性 。 本 文 基于 深度 学 习 和 哈 希 技术 ， 
近似 最 近邻 搜索 ， 返 回 与 之 内 容 相 似 的 视频 。 传 统 的 方法 。 提出 了 一 种 新 的 相似 性 视频 快速 检索 方法 ， 运 用 3D 卷 积 神 
先 提取 视频 特征 ， 然 后 计算 查询 视频 特征 与 视频 数据 库 中 ”经 网 络 中 同时 对 视频 进行 时 间 特 征 和 空间 特征 的 提取 与 融 
视频 特征 的 欧 氏 距离 ， 并 根据 距离 从 小 到 大 的 顺序 来 返回 相合 ， 利 用 哈 希 方法 对 融合 后 的 视频 时 空 特征 进行 量化 编码 ， 
似 的 视频 。 但 是 随 着 互联 网 上 的 视频 数据 的 井喷 式 增长 ， 传 ”得 到 视频 的 哈 希 二 值 码 ， 计 算 查 询 视 频 与 大 规模 视频 数据 集 
统 的 线性 搜索 方法 需要 的 存储 空间 消耗 大 、 计 算 复杂 度 高 、 的 汉 明 距离 ， 实 现 快速 有 效 的 视频 检索 。 
伟 索 速度 慢 。 为 了 解决 传统 方法 对 存储 空间 和 检索 时 间 的 上 1 ”相关 研究 
的 局 限 ， 近 来 近似 最 近邻 搜索 技术 发 展 迅 猛 ， 其 中 蛤 希 技术 
作为 一 种 代表 性 方法 受到 了 广泛 关注 ， 这 种 方法 能 够 将 视频 — ”1.1 哈 希 学 习 
数据 的 高 维特 征 映射 到 低 维 空间 ， 产 生 简 洁 的 二 值 码 表示 ， 为 了 实现 高 效 的 近似 最 近邻 搜索 ， 哈 希 方法 则 在 将 数据 
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于 像 进行 卷 积 操作 , 3D 卷 积 是 通过 堆 炙 多 个 连续 的 帧 组 成 一 
个 立方 体 ， 然 后 在 立方 体 中 运用 3D 卷 积 核 。 在 这 个 结构 中 ， 


值 码 ， 但 是 这 种 不 依赖 数 让 


位 数 的 二 值 码 才能 得 到 比较 高 的 精度 。 为 了 


主要 采用 随机 投影 方法 
4 险 希 方法 需要 


解决 数据 独 


数据 的 属性 
成 紧凑 的 二 值 


的 标签 信息 来 监督 训练 来 
依赖 型 哈 希 算法 又 可 分 为 有 监督 哈 希 方法 
监督 险 希 方法 M616-20391, 在 无 监督 方法 中 哈 希 
了 标签 信息 的 情况 下 完成 的 。 利 用 离散 优化 


E 之 间 的 相 


技术 对 数据 的 二 值 码 进行 学 习 ， 保 持原 始 高 维 4 
的 算法 有 Yair 等 人 口 
Spectral Hashing, SH), Gong 45 AUS! prd fi 
法 (iterative quantization, ITQ) 以 及 等 人 Irie 20! 
性 哈 希 方法 (locality linear hashing, LLH). BJ 
人 台 希 方法 的 检索 精度 高 了 不 少 ， 但 是 缺少 数 


的 谱 哈 希 
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出 的 局 部 线 
监督 哈 希 方 


总 体 的 检索 精度 还 是 很 难 提升 ， 


此 有 监督 哈 


和 出现 一 定 程度 上 解决 了 这 
YJ, BARES 
E 离 并 对 增 大 数据 之 | 
近 ， 不 相似 的 数 : 


1 用 带 有 标签 
的 目标 是 最 小 
度 差异 ， 即 使 
尽量 远离 。 在 过 去 的 


\ 神 经 网 络 在 各 种 视觉 人 


E 务 展现 出 其 优 


d ik. WY 


究 者 们 将 深度 学 习 与 哈 希 方法 结合 提出 了 许多 
| 练 端 到 端的 (convolutional neural 


network, CNN)B 模 型 ， 现 
像 表 示 以 及 在 监督 或 者 
台 希 方法 已 经 取得 了 显著 的 性 


的 深度 哈 希 方法 能 够 同时 学 习 图 
监督 的 方法 得 到 二 
能 ， 但 它们 大 多 是 为 图 
下 ， 专 门 为 视频 检索 设计 的 深度 哈 希 


虽然 现 有 


, 因为 学 习 视 频 特 和 


村 征 表示 更 
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MEME 


E 学 习 视 频 


是 取 视 频 特 


+ 深信 和 念 网 络 (deep belief network, DBN) 


E 生 成 视频 哈 希 ， 获 得 
E 和 时 间 特 征 ， 文 献 [5] 
时 记忆 (binary lon 


有 代表 性 的 


g short-term memory, 


居中 每 一 个 feature map 都 会 与 上 一 层 中 多 个 邻近 的 连 


续 帧 相连 ， 以 此 来 捕捉 运动 信息 。 例 如 图 1 左边 ， 一 个 卷 积 


的 某 一 位 置 的 值 是 通过 卷 积 上 一 层 的 三 个 连续 的 帧 的 同 


一 个 位 置 的 局 部 感受 野 得 到 的 。3D 卷 积 核 只 能 从 cube 中 提 
取 一 种 类 型 的 特征 , 因为 在 整个 cube 中 卷 积 核 的 权 值 都 是 一 
样 的 ， 也 就 是 共享 权 值 ， 都 是 同一 个 卷 积 核 〈 图 中 同一 个 颜 
色 的 连接 线 表 示 相 同 的 权 值 ) 。 因 此 本 文 可 以 采用 多 种 卷 积 
核 ， 以 提取 多 种 特征 。 


temporal 


图 1 3D 卷 积 计算 过 程 


Fig. 1 3D convolution alculation process 


基于 3D CNN 的 视频 哈 希 算法 


在 本 章 中 将 具体 介绍 所 提出 的 基于 3D 卷 积 神经 网 络 的 
视频 哈 希 方法 模型 及 学 习 算法 。 


符号 定义 


本 文 使 用 mm 表示 向 量 ，M RIWWER, M 表示 和 矩阵 的 转 
。 必 用 来 表示 向 量 的 欧 氏 范 数 ， 符 号 函数 sen (D 表示 如 果 


元 素 为 正 ， 则 返回 1， 和 否则 返回 -1。 假 设 数 据 集中 有 n 个 数 
dum CHUBUTED Vama, Ap vve 表示 第 i 个 视频 数 
据 的 DD- 维特 征 向 量 ; 除 此 之 外 ,本文 还 使 用 使 用 相似 度 矩 阵 
Si 表示 视频 数据 之 间 的 相似 性 ， 其 中 5; =1 表 示 vi 5 v AHAA, 
Si 70 表示 vw 与 vj 不 相似 ,在 视频 检索 系统 中 ,相似 度 和 矩阵 S; 
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mE 


学 习 视频 的 感知 特征 ， 再 将 学 习 到 的 特有 


HE h E 
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通常 是 用 视频 语义 标签 来 构造 的 。 本 文 的 目标 是 利用 深度 哈 


和 希 方法 将 具有 语义 标签 信息 的 视频 数据 映射 成 哈 希 二 值 码 表 
示 ， 即 %s{-L0* ， 其 中 < 表示 二 值 码 的 长 度 ， 并 且 保证 学 到 
的 哈 希 二 值 码 能 够 保留 视频 之 间 的 相似 性 85= 也 二 ， 即 相似 
视频 所 对 应 二 值 码 之 间 的 汉 明 距离 尽量 小 ， 不 相似 视频 所 对 
应 二 值 码 之 间 的 汉 明 距离 尽量 大 ， 且 相似 视频 之 
离 比 不 相似 视频 之 间 的 汉 明 距离 更 小 。 本 文 使 用 ww) 来 表示 


间 的 汉 明 距 


E 的 质量 ， 而 


1.2 3D Convolutional Neural 


FE 提 取 一 般 是 对 视频 


于 3D 卷 积 神经 网 络 
性 ， 本 文 将 视频 时 空 特征 学 习 


HAWER EE, EP b =h) SUID. Qs A o 
2.2 方法 模型 
本 方法 的 模型 框架 如 图 2 所 示 。 它 是 一 个 端 到 端的 学 习 


， 提 出 了 一 


了 效 地 应 用 于 相似 视 


了 特征 学 习 ， 这 种 方式 不 
用 3D 卷 积 神经 网 络 
il z] 1 Æ 3D CNN 
采用 3D 卷 积 核 进 行 卷 积 操 作 。 
度 为 3， 即 对 连续 的 三 帧 


于 1 中 进行 卷 积 操作 的 时 间 维 


RE MPO 


框架 ,主要 由 视频 特征 学 习 部 分 和 哈 希 二 值 码 学 习 部 分 组 成 ， 
在 训练 过 程 中 ， 各 部 分 会 相互 反馈 。 
2.2.1 视频 特征 学 习 部 分 

本 文 的 模型 在 文献 [11] 所 提出 的 3D CNN 模型 的 基础 上 


些 改 进 ， 在 模型 的 第 一 层 卷 积 和 第 三 层 卷 积 之 后 增加 


一 化 操作 ， 以 及 最 后 一 层 添加 了 一 个 哈 希 码 学 习 层 。 请 
注意 ， 图 2 中 有 两 个 3D CNN 网 络 结构 ， 这 两 个 3D CNN 网 


有 相同 的 结构 和 相同 的 权重 。 也 就 是 说 ， 输 入 和 损失 函 
了 是 基于 成 对 对 视频 数据 的 。 模 型 每 一 层 的 详细 配置 如 表 
1 所 示 。 
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图 2 深度 视频 哈 希 算法 框架 


Fig.2 Deep video hash algorithm framework 


表 1 深度 视频 哈 希 方法 框架 参数 设置 


Table ] Parameter settings for deep video hash algorithm 

Layer Configuration 

Convl f. 64*3*3*3;st. 1*1*1;pad. SAME;BN 

Pooll ksize:1*2*2;st. 1*2*2;pad. SAME 

Conv2 f. 128*3*3*3;st. 1*1*1;pad. SAME 

Pool2 ksize:2*2*2;st. 2*2*2;pad. SAME 
Conv3 1 f. 256*3*3*3;st. 1*1*1;pad. SAME;BN 
Conv3 2 f. 256*3*3*3;st. 1*1*1;pad. SAME 

Pool3 ksize:2*2*2;st. 2*2*2;pad. SAME 
Conv4 1 f. 512*3*3*3;st. 1*1*1;pad. SAME 
Conv4 2 f. 512*3*3*3;st. 1*1*1;pad. SAME 

Pool4 ksize:2*2*2;st. 2*2*2;pad. SAME 
Conv5 1 f. 512*3*3*3;st. 1*1*1;pad. SAME 
Conv5 2 f. 512*3*3*3;st. 1*1*1;pad. SAME 

Pool5 ksize:2*2*2;st. 2*2*2;pad. SAME 

Full6 4096 

Full7 4096 

Full8 Video hash code length c 


更 具体 地 , 它 包含 8 个 卷 积 层 (其 中 包含 5 次 池 化 操作 ) 
和 3 个 全 连接 层 。 每 个 卷 积 层 描述 在 几 个 方面 : f. 表 示 卷 积 
核 的 数量 及 其 大 小 ; st. 表 示 卷 积 步 长 ，pad. 表 示 要 添加 到 输 
入 的 像素 数 ，BN 表示 是 否 应 用 批量 归 一 化 操作 。 其 中 卷 积 
核 的 大 小 均 为 3*3*3， 步 长 为 1*1*1。 池 化 操作 核 的 设置 除 
了 第 一 层 大 小 和 步 长 均 为 1*2*2， 之 后 的 大 小 和 步 长 均 为 
2*2*2, 这 样 设置 是 为 了 不 过 早 缩 减 时 序 上 的 长 度 。 除 喻 希 码 
学 习 层 外 , 所 有 层 的 激活 函数 均 为 ReLUI[91， 其 收敛 速度 快 且 
可 以 避免 出 现 梯 度 消失 问题 ， 最 后 一 层 本 文选 择 恒 等 函数 作 
为 激活 函数 。 
2.2.2 视频 哈 希 码 学 习 部 分 

本 文 使 用 OnO ER” 表示 学 习 到 的 视频 特征 , 对 应 模型 
的 输出 ， 其 中 2 为 网 络 模型 的 参数 。 基 于 3D 卷 积 神经 网 络 
的 视频 哈 希 方法 的 目标 函数 定义 如 下 : 

,min J --5 (5,8, - log e*:)) 


sies 

tollB* -Phtle -El 0 

sto B*B" e{-1,+1}° 
其 中 : Kj-7f(,:0,9,, 205* F7 *F;. BB" 分 别 表 示 第 ij 个 视 
频 所 对 应 的 哈 希 码 ，B osi), By siF) o 为 超 参数 。 


标 函 数 的 第 一 部 分 220, -log(+e%) 是 具 


义 的 相似 性 的 负 对 数 似 然 函 数 : 
c(8, 5,=1 


ij 
1-o(9,) $,-0 


如 下 定 


p6, 1FE)=] 


E: eq) es AAA ERRER E SA 
码 之 间 的 相似 性 ， 即 相似 视频 的 哈 希 码 尽量 相似 ， 不 相似 视 
频 的 哈 希 码 尽 量 不 同 。 


优化 目标 函数 的 第 三 部 分 ad" -Ele + AF 


TU F, JERIH A Bu Zr AD XE E RT, 保持 五 和 已 的 相似 性 
即 可 以 保持 输入 视频 对 的 相似 性 。 
23 ”模型 学 习 
本 算法 采用 交替 学 习 策 略 来 学 习 8",8",6 。 每 次 先 学 习 
一 个 参数 ， 其 他 参数 固定 。 算 法 1 简要 介绍 了 本 方法 模型 的 
整个 交替 学 习 算 法 ， 并 在 本 节 的 以 下 内 容 中 详细 介绍 该 算法 
的 推导 过 程 。 
1) 30, BB" 固定 
24 B*.B" 固定 时 ， 本 文 使 用 反 向 传播 算法 来 学 习 网 络 模 
型 的 参数 9 。 根 据 现 有 的 深度 学 习 方 法 外 ,本 文 利用 随机 梯度 
下 降 法 反 向 传播 梯度 来 学 习 9。 更 具体 地 ， 在 每 次 迭代 中 ， 
本 文 从 训练 集 采样 一 小 部 分 的 视频 数据 ， 然 后 基于 采样 数据 
执行 本 文 的 学 习 算 法 。 特 别 地 ， 对 于 每 个 采样 点 组 ， 本 文 首 
先 计算 以 下 梯度 : 
aJ z 
r3 zd 2 ato -S;F,)* 2a(F, - B") 
er 
ôF; 


> 


B" -F| > 


-05*Y (0(0,)F, -S,F.) -2a(F, - B") 2) 


^i 


利用 所 求 的 g a 通过 复合 求 导 链 式 法 则 再 求 Z, A 
后 利用 反 向 传播 算法 即 可 更 新 参数 0 。 

2) 学 习 B",B” ，6 固 定 
当 参 数 0 固定 时 ， 式 (1) 将 重新 定义 如 下 


MAX eo (( B" F, (Bv)! F 3 
B», BY r[a((B" )" F, - (B")' F;) (3) 


则 哈 希 码 的 更 新 依赖 于 其 连续 替代 项 ; 

B" = sign(a(B" y F,), B" = sign(a( B")! F;) (4) 
算法 1 基于 3D 卷 积 神经 网 络 的 视频 哈 希 算法 

输入 : 视频 数据 集 V 以 及 相似 度 矩 阵 S. 
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输出 : 模型 的 网 络 参 数 2 ， 以 及 输入 的 视频 所 对 应 的 哈 希 二 值 码 B。 
初始 化 : 初始 化 模型 网 络 参数 2 mini-batch size=16, 3848 
iteration =5666。 
Repeat 
for iteration-1,2,3,..,5000 do 

从 V 中 随机 取样 视频 数据 来 构造 一 个 mini-batch 

for 每 个 在 mini-batch 的 采样 视频 组 ( vov; )， 

根据 前 向 传播 算法 计算 ;= 了 (ij;9) ， 并 根据 式 (2) 计算 对 应 

的 梯度 并 根据 反 向 传播 算法 更 新 模型 网 络 参数 0 。 

end for 

根据 式 〈4) 得 到 输入 视频 所 对 应 哈 希 二 值 码 
Until iteration -5000 


3 su 


在 这 一 部 分 中 ， 本 文 在 常用 的 视频 数据 集 上 与 其 他 最 先 
进 的 方法 进行 了 比较 ， 验 证 了 所 提 方 法 的 有 效 性 。 本 实验 是 
在 Nvidia Titan X GPU 服务 器 上 使 用 开源 的 深度 学 习 框 架 
Tensorflow 实现 的 。 
3.1 数据 集 和 评价 指标 

UCF101 数据 集 包括 101 个 动作 类 别 ，13 320 个 实际 动 
作 视 频 片 段 ，UCF101 中 大 多 数 视频 的 剪辑 持续 时 间 小 于 
10 s, 在 实际 实验 中 本 文选 择 了 其 中 的 9 537 个 视频 片段 作为 
训练 集 ， 剩 余 3 783 个 片段 作为 测试 集 。 

对 于 基于 哈 希 的 检索 方法 ， 汉 明 距 离 排序 和 哈 希 查找 是 
两 种 广泛 使 用 的 检索 性 能 评估 方法 。 在 本 实验 对 比 中 也 采用 
这 两 种 性 能 来 评估 本 文 方法 和 其 他 的 baselines。 汉 明 距 离 排 
序 史 检索 评估 方法 是 将 数据 库 中 的 视频 与 给 定 查 询 视 频 的 
汉 明 距离 按 从 小 到 大 的 顺序 进行 排列 ， 平 均 均 值 精度 (mean 
average precision，mAP)63 是 衡量 汉 明 距离 排序 准确 性 的 常 
用 指标 。 哈 希 查 找 是 返回 数据 库 中 离 查询 视频 在 某 个 汉 明 半 
径 以 内 的 所 有 视频 ， 而 精确 一 召回 率 曲线 是 用 来 衡量 哈 希 碍 
找 方法 准确 性 的 通用 指标 。 
32 实验 参数 设置 

根据 数据 集中 视频 语义 级 标签 来 构建 相似 度 和 矩阵 。 在 训 
练 阶段 ,网 络 的 输入 是 由 两 个 输入 视频 的 帧 集 组 成 的 帧 内 对 ， 
而 在 检索 阶段 ， 输 入 是 单个 视频 的 帧 集 。 每 个 帧 集 包 含 从 视 
频 中 随机 选择 的 帧 数 k， 在 实验 中 ， 本 文 将 k 设 为 16， 帧 集 
中 的 每 个 帧 被 调整 为 112X112。 为 了 评估 不 同 长 度 的 哈 希 码 
的 性 能 ， 本 文 将 二 进 制 码 的 长 度 分 别 设 为 16、32 和 64。 目 
标 参 数 中 值 设 置 为 1 。 
3.3 Baseline 

本 文 将 所 提出 的 方法 与 目前 最 先进 的 视频 检索 baselines 
进行 了 比较 ,包括 三 种 传统 哈 希 方 法 : (from image hashing to 
video hashing, FIHTV)!!, (video hashing via structure learning, 
VHSL)P!fll(submodular video hashing, SVH )?!, UR — fi 
度 哈 希 方法 : (deep video hashing, DVH), (video hashing 
based on appearance and attention features fusion via 
DBN ,DBNVH) 和 由 和 (unsupervised deep video hashing with 
balanced rotation,BRVHD'I。 在 视频 检索 性 能 对 比 实验 中 ， 尽 
量 按 照 对 比 论 文中 作者 提出 的 参数 设置 复 现 方法 。 对 于 与 传 


Gc 
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方法 实验 代码 合理 改编 并 能 够 应 用 于 视频 的 哈 希 码 学 习 ， 主 
要 用 于 对 比 所 提出 哈 希 码 学 习 方法 。 
3.4 实验 结果 与 分 析 
3.4.1 汉 明 排序 

表 2 本文 方 法 及 其 他 方法 在 汉 明 排序 上 的 最 佳 mAP 


Table 2 Best map of this method and other methods in Hamming 


Iu 


ranking 

T UCF101 
TER The 16 bits 32 bits 64bits 
FIHTV 0.3651 0.3725 0.4213 
VHSL 0.3985 0.4202 0.4758 
SVH 0.4564 0.4787 0.4886 
UVH 0.5041 0.5472 0.5830 
V 一 >V DBNVH 0.5612 0.6253 0.6441 
BRVH 0.6525 0.6826 0.7189 
DSH* 0.7274 0.7458 0.7963 
DLBHC* 0.7141 0.7199 0.7418 
本 方法 0.7832 0.7914 0.8256 


在 表 2 中 展示 了 本 文 方法 及 其 他 方法 在 汉 明 排序 上 的 
mAP，“V 一 >V 表示 查询 视频 对 数据 库 视 频 的 检索 。 从 表 2 
中 可 知 ， 相 比 于 传统 视频 哈 希 方 法 ， 本 文 所 采用 的 哈 希 码 学 
习 方 法 更 为 高 效 ， 检 索性 能 提升 明显 。 为 了 进一步 验证 基于 
3D CNN 的 视频 哈 希 算法 的 有 效 性 ， 本文 利 用 在 Sport-1M 数 
据 集 上 预先 训练 的 深层 网 络 来 提取 视频 时 空 特征 ， 与 其 他 深 
度 视频 哈 希 算法 学 习 视 频 特征 的 方式 相 比 ,3D 卷 积 神经 网 络 
学 习 到 视频 特征 更 能 有 效 地 表示 视频 内 容 ， 融 入 到 哈 希 学 习 
的 部 分 进行 相互 反馈 能 保持 视频 特征 的 相似 性 ， 因 此 能 得 到 
更 高 的 检索 精度 。 


方法 查询 视频 返回 前 5 个 最 相似 的 视频 结果 


m 


FIHTV 


VHSL 


DBNVH 


BRVH 


DLBHC* 


本 方法 


KU 


图 3 查询 结果 (32 bit) 
Fig. 3 Query results (32 bit) 

为 了 验证 所 提 方 法 中 目标 函数 的 有 效 性 ， 本 文 将 所 求 得 
的 深度 视频 哈 希 模型 与 其 他 视频 哈 希 方法 进行 性 能 比较 ， 如 


统 视 频 哈 希 方法 进行 比较 侧重 于 哈 希 学 习 方法 上 ， 而 针对 深 
度 视 频 哈 希 学 习 的 算法 ， 性 能 比较 的 侧重 点 在 视频 特征 学 习 
部 分 。 本 文 还 将 提出 的 方法 与 图 像 深 度 哈 希 方法 进行 对 比 : 


(deep supervised hashing for fast image retrieval, DSH) P!, 


(deep learning of binary hash codes for fast image retrieval, 
DLBHC)60 等 。 这 一 部 分 实验 中 ， 将 图 像 哈 希 码 学 习 部 分 的 


图 3 所 示 ， 将 查询 视频 输入 到 模型 中 产生 32 bit 的 哈 希 二 值 
码 ， 并 利用 汉 明 距离 对 数据 库 中 可 能 的 相似 视频 进行 排序 。 
由 于 空间 限制 , 本 文 只 返回 结果 中 前 五 个 最 相似 的 视频 结果 ， 
其 中 ， 绿 色 对 色 表 示人 返回 的 结果 与 查询 视频 相似 ， 反 之 红色 
叉 号 表示 返回 的 结果 与 查询 视频 并 不 相似 。 可 以 观察 到 ， 本 
文 所 提出 的 方法 得 到 了 最 好 的 效果 ， 从 而 验证 了 所 提 的 深 


n= 


KE 


录用 定稿 


视频 哈 希 学 习 方法 的 高 效 性 
3.4.2 哈 希 查找 

在 哈 希 查找 协议 中 ， 本 文 可 以 计算 出 给 定 任何 汉 明 半径 
的 返回 点 的 精确 率 和 召回 率 ， 通 过 将 汉 明 半径 从 0 变 到 d, 
步 长 为 1， 就 可 以 得 到 精确 一 召回 率 曲 线 。 图 4 显示 了 本 文 
方法 和 其 他 baselines 方法 在 UCF101 数据 集 上 哈 希 码 长 度 为 


o 


pu 


Hu 
LH 


16 的 精确 一 召回 曲线 。 可 以 发 现 本 文 提 出 的 方法 获得 最 佳 的 
性 能 。 
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图 4 精确 一 召回 率 曲线 (16 bit) 


Fig.4 Precision-recall rate curve (16 bit) 
4 ”结束 语 


本 文通 过 3D 卷 积 神经 网 络 学 习 视 频 的 时 空 特征 ， 并 将 
学 习 到 的 特征 融入 到 哈 希 算法 中 ， 根 据 为 视频 相似 度 保持 任 
务 所 设计 的 目标 函数 进行 大 量 的 训练 能 够 得 到 紧凑 并 保持 视 


频 时 空 特 征 相似 性 的 二 值 码 ， 摆 脱 了 传统 视频 特征 手工 设计 


u 
" 


的 局 限 ， 大 幅 降低 了 大 规模 视频 数据 集 特征 存储 的 空间 ， 
此 在 视频 检索 应 用 中 ， 该 方法 既 能 够 加 快 对 相似 视频 的 检索 
速度 ， 又 能 提高 检索 精度 。 
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